［多模態RAG］第14天：多模態檢索效果評測的規劃藍圖

2025 iThome 鐵人賽

DAY 14

AI & Data

從RAG到EmoRAG：讓AI真正聽懂你的心聲系列第 14 篇

17th鐵人賽

XianYun

2025-09-28 23:56:08

111 瀏覽

分享至

評估模型好壞，常用的參數包含準確率、召回率、F1分數、Hit Rate、MRR（Mean Reciprocal Rank）、AUC等指標。不同任務與資料型態會用不同評測方式，以下舉例說明如何實作 Embedding 模型評測、多模態模型評估，並說明模型挑選流程，特別是針對多模態情緒辨識應用。

常用模型評測參數定義

準確率（Accuracy）：預測正確樣本占總樣本比例。
召回率（Recall）：在所有真實為正樣本中，被正確預測出來的比例。
F1 分數：精確率和召回率的調和平均值，尤其適合不平衡數據。
Hit Rate：在 Top-K 中是否命中正確答案的比例，常用於檢索任務。
Mean Reciprocal Rank（MRR）：查詢任務中，第一個正確答案的排序倒數平均值。
ROC/AUC（Area Under Curve）：分類模型區分正負樣本的能力指標。
多模態任務還應加入融合表現（Fusion Score）、跨模態一致性（Cross-modal Consistency）等。

Embedding 模型評測實作流程

資料準備
- 準備標註好的語料集或問答對（如有 ground truth），分割訓練/測試集。
嵌入生成
- 使用不同的 embedding 模型（如 OpenAI、Cohere、JinaAI、BGE 等）將文本轉換為向量表示。
檢索任務設計
- 對於每個 query，檢索最相近的 Top-K 向量，取得相應原始資料片段。
評測指標計算
- Hit Rate: 是否在 Top-K 內命中正確答案。
- MRR: 正確答案第一次出現的排名倒數均值。
- 其他如 Precision@K、Recall@K 可視情境計算。
結果分析
- 各 embedding 結合不同 reranker（如 CohereRerank、bge-reranker-large）比較指標，分析性能提升主因。

多模態模型評估方法

資料設計
- 多模態資料通常包含文本、影像、聲音等，需設計跨模態 query 與 ground truth 標註，如描述+臉部圖像找相符情緒。
指標選擇
- 傳統指標如準確率、召回率、F1 分數仍適用，每個模態也可單獨做評估。
- 增加跨模態檢索效率（如 Text2Image/Face→Text 檢索的 MRR、Hit Rate）。
- 融合表現（Fusion score）：融合後的結果是否提升了多模態的綜合識別準確率。
- 一致性（Consistency）：不同模態間學到之特徵彼此支持且無衝突。
實作步驟
- 建立多模態向量空間。
- 設計問答或檢索 query，檢查跨模態模型 Top-K 檢索表現。
- 用上述指標系統性評估。

如何挑選適合需求的模型（以多模態情緒辨識為例）

明確需求：
‣ 嵌入形式：是否同時要處理文字與影像等多模態？
‣ 檢索類型：需側重多模態融合還是單一模態？
‣ 預期準確度與速度，加上硬體資源限制。
看指標：
‣ 檢查在標準任務下 Hit Rate、MRR 或 F1 分數表現，選高分者。
‣ 注意 reranker 的加成效果，能顯著提升模型表現者優先考慮。
真實測試：
‣ 自行用典型 query 及場景測試，檢視 Top-K 命中情形與誤判原因。
融合與擴充性：
‣ 多模態系統需支持跨模態融合，有些模型如 CLIP、ALIGN 支持同時對齊文字與影像。
‣ 情緒辨識還需情緒設計驗證資料集在各模態下表現一致性。
適合多模態情緒辨識模型實例：
‣ Text 模態：BGE-large、JinaAI-base、OpenAI embedding。
‣ Image/Face 模態：CLIP、OpenFace、DeepFace，並輔以 cross-modal fusion 技術（如 cross-attention）。
‣ Reranker：CohereRerank、bge-reranker-large 能顯著提升命中率與排名準確度。

攻略建議表格

模型類型	主要指標	評測建議	適用場景
Embedding	Hit Rate, MRR, F1分數	Top-K 命中、排名倒數、分類準確率	文字/語意檢索
多模態融合	融合準確率、一致性、MRR	Text/Face/Audio單模+融合評測	多模態情緒辨識/分析
Reranker	命中率提升幅度、MRR	各嵌入模型前後對照評估	增強檢索效果
框架可擴充性	API支持、資料格式兼容性	靈活性與擴展測試	實驗或企業部署

繁體中文文字評測計畫

維度一致：每個模型查詢與文件 embedding 維度一致即可，不需截斷。
語言支援：這四個模型都支援繁體中文。
資料型態：API 回傳 list of float，Python 端直接處理。
評測時分開統計各自指標，不要直接比較不同模型的 embedding 分數。
若有 API rate limit，建議先將 embedding 存檔再做評測。
針對 emotion_dataset_500_3.csv 測試集，分別用可接受繁體中文的模型 voyage-multilingual-2、voyage-multilingual-light-2、embed-multilingual-light-v3.0（Cohere）、Qwen3-Embedding-0.6B ...做測試
計算指標：

準確率（Accuracy）：預測正確樣本占總樣本比例。
召回率（Recall）：在所有真實為正樣本中，被正確預測出來的比例。
F1 分數：精確率和召回率的調和平均值，尤其適合不平衡數據。
Hit Rate：在 Top-K 中是否命中正確答案的比例，常用於檢索任務。
Mean Reciprocal Rank（MRR）：查詢任務中，第一個正確答案的排序倒數平均值。
ROC/AUC（Area Under Curve）：分類模型區分正負樣本的能力指標。
多模態任務還應加入融合表現（Fusion Score）、跨模態一致性（Cross-modal Consistency）

圖片情緒辨識評測計畫

資料型態與維度一致性

圖片預處理：所有模型需將圖片 resize 到一致大小（如 75x75 或 224x224），並標準化。
標籤格式：label 需轉成 one-hot 或 class index。
資料型態：圖片為 numpy array，標籤為 int 或 one-hot。

模型架構選擇

可比較 CNN (如 ResNet, VGG)、Vision Transformer (ViT)、EfficientNet 等。
每個模型的輸入維度需一致。

評測流程

資料集分割：train/val/test（可依 FANE Balanced Dataset 分類）。
訓練模型：用 train/val。
測試模型：在 test set 上預測情緒類別。
計算指標：Accuracy、F1-score、Confusion Matrix。

結論

選擇最適合自己需求的模型，必須針對任務特性、評測指標、實測表現與資源限制做全方位考量，多模態情緒辨識尤需強調跨模態融合準確度與一致性，並透過 Top-K、MRR 指標搭配訓練與驗證資料反覆調整。

［多模態RAG］第13天：自製多模態RAG模型的挑戰與效果分析

［圖像情緒辨識］第15天：MediaPipe人臉特徵點偵測

系列文

從RAG到EmoRAG：讓AI真正聽懂你的心聲共 30 篇

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19867 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從RAG到EmoRAG：讓AI真正聽懂你的心聲系列 第 14 篇